http://www.arocmag.com/article/02-2019-12-046.html 


基于 电子 病历 的 实体 识别 和 知识 图 谱 构建 的 研究 
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摘 要 : 针对 中 文 电子 病历 中 命名 实体 识别 和 实体 关系 抽取 研究 方法 中 存在 的 问题 ， 提 出 了 一 种 基于 双向 长 短 时 记忆 
网 络 (bidirectional long short term memory) 与 CRF(conditional random field) 结 合 的 实体 识别 和 实体 关系 抽取 方法 。 该 方法 
首先 使 用 词 误 入 技术 将 文本 转换 为 数值 向 量 ， 作 为 神经 网 络 BiLSTM 的 输入 ,再 结合 CRF 链 式 结构 进行 序列 标注 ， 输 
出 最 大 概率 序列 ， 并 对 识别 结果 知识 图 谱 化 。 实 验证 明 ， 该 方法 对 中 文 电子 病历 进行 实体 识别 和 实体 关系 抽取 时 的 准 
确 率 、 召 回 率 、EF 值 有 明显 的 提升 。 实 验 结果 满足 临床 中 系统 应 用 需求 ， 对 帮助 研究 构建 临床 决策 支持 系统 、 个 性 化 
医疗 推荐 服务 有 引导 作用 。 
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Research on entity recognition and knowledge graph construction based on 
electronic medical records 
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(a. State Key Laboratory of Marine Resource Utilization in South China Sea, b. College of Information Science & Technology 
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Abstract: Aiming at the problems in the research methods of named entity recognition and entity relationship extraction in 
Chinese electronic medical records) , this paper proposed an entity identification and entity relationship based on bidirectional 
long Short term memory and conditional random field (CRF) . The method first used word embedding technology to convert 
text into numerical vector, as the input of neural network BiLST™M, combined with CRF chain structure for sequence labeling, 
output the maximum probability sequence, and mapping the recognition result knowledge graph by using the database tool 
Neo4j. Experiments Show that the method can significantly improve the accuracy, recall rate and F value of entity 
identification and entity relationship extraction in Chinese electronic medical records. The experimental results meet the needs 
of clinical system applications, and have a guiding role in helping to study and construct clinical decision support systems and 
personalized medical recommendation services. 
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还 可 以 作为 辅助 信息 ， 帮 助 医生 解决 知识 上 的 局 限 性 问题 ， 从 
而 减少 个 人 的 医疗 失误 问题 。 此 外 , 对 电子 病历 完成 知识 提取 ， 
电子 病历 (electronic medical record,EMR) 是 指 医 务 人 员 在 未 来 的 工作 中 为 患者 或 用 户 提供 高 效 便捷 的 个 性 化 医疗 推荐 
在 对 患者 医疗 的 过 程 中 ， 使 用 医疗 机 构 信息 系统 生成 的 文字 符 服务 ， 做 足 准 备 工作 。 
号 、 图 表 、 图 形 、 数 据 等 数字 化 电子 信息 ， 还 有 存储 、 管 理 、 知识 图 谱 的 构建 是 当前 各 研究 领域 的 又 一 大 热点 。 知 识 图 
传输 和 重 现 医疗 记录 的 作用 。 同时, EMR 也 是 一 种 非常 宝贵 的 谱 本 质 是 语义 网 络 技术 ， 由 Google 于 2012 年 提出 ， 主 要 目的 
知识 资源 , 其 中 包含 了 大 量 的 、 准确 的 详细 的 患者 的 医疗 信息 。 在 于 提高 互联 网 的 搜索 效率 。 将 真实 世界 中 事物 与 事物 之 间 的 
通过 对 电子 病历 完成 知识 提取 任务 , 获得 患者 详细 的 医疗 信息 ， 关系 转换 为 知识 图 谱 中 实体 与 实体 之 间 的 关系 来 描述 。 现 阶段 ， 
一 方面 可 以 帮助 医学 研究 者 构建 临床 决策 支持 系统 ， 另 一 方面 国内 医疗 领域 中 基于 知识 图 谱 的 疾病 预测 研究 工作 才刚 起 步 ， 
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chinaXiv 


录用 定稿 

所 以 构建 基于 知识 图 谱 的 医疗 知识 系统 对 于 智慧 医疗 的 发 展 具 
有 一 定 的 辅助 意义 。 

1 ”相关 工作 


20 世纪 末 ， 医 疗 信 息 化 在 国 


际 上 的 发 


展 


已 经 达到 了 一 定 
的 成 熟 阶段 ， 具 有 大 规模 的 语料库 和 研究 方法 ， 还 建立 了 一 体 
化 医学 语言 系统 (unified medical language systetm，UMLS )。 在 


黄 梦 醒 ， 等 : 基于 电子 病历 的 实 


和 医 } 


本 文通 过 总 结 医疗 胡 
实体 关系 抽取 方法 ， 


了 知识 的 可 理解 性 。 


提出 一 个 新 


ChinaXiv 合 作 期 刊 
体 识别 和 知识 图 谱 构建 的 研究 


Ac 


上 使 用 


医疗 发 展 有 


Neo4j 图 数据 库 对 知识 进行 
定 的 指导 作用 。 本 文 ; 


完 领域 中 应 用 广泛 的 实体 识别 方法 和 


的 框架 模型 结构 ， 并 在 此 基础 


营 理 和 可 视 化 ， 对 推动 智慧 
各 任务 分 为 两 个 阶段 : 


引 知 识 提取 阶段 。 在 该 阶段 ， 以 实体 识别 和 实体 关系 抽取 


为 主要 任务 。 在 已 构建 语料库 的 基础 上 ， 使 月 


日 自然 语言 技术 对 


医学 领域 的 研究 中 , 自然 语言 处 理 (natural language processing， ”电子 病历 进行 自动 识别 ， 采 用 实体 识别 和 实体 关系 抽取 的 机 器 
NLP) 中 的 实体 识别 (entity recognition，NER) 和 实体 关系 学 习 方 法 对 其 进行 分 析 ， 抽 取 ， 构 建 医疗 实体 之 间 的 关系 。 
取 (relation extraction，RE) 一 直 是 热点 与 难点 。 b) 知 识 存储 阶段 。 该 阶段 的 主要 任务 是 以 图 结构 存储 知识 

在 信息 提取 阶段 ， 实 体 识别 的 主要 任务 是 从 电子 病历 中 找 通过 Neo4j 实现 可 视 化 阶段 ， 通 过 知识 图 谱 的 形式 ， 将 疾病 
到 当前 知识 架构 基础 上 已 经 存在 的 概念 词语 ， 其 中 包括 疾病 ， ”实体 、 病 症 实体 以 及 药物 实体 及 其 相互 之 间 的 关系 关联 起 来 。 
病症 ， 药 物 ， 检 测 ， 治 疗 等 ， 实 体 关系 抽取 的 主要 任务 是 发 现 。 模型 大 致 框架 如 图 1 所 示 。 
并 建立 两 个 实体 之 间 的 关系 ， 包 括 疾病 和 病症 之 间 的 关系 ， 疾 
病 和 药物 之 间 的 关系 等 。 这 两 个 阶段 也 使 得 未 来 构建 个 性 化 医 基于 中 文 电子 病历 
疗 健康 服务 系统 有 了 一 个 很 好 的 准备 工作 。 人 的 语料库 构建 

关于 实体 识别 和 实体 关系 提取 的 研究 ， 广 泛 应 用 的 方法 可 
分 为 三 类 : 基于 词典 的 方法 ， 基 于 过 则 的 方法 ， 基 于 机 器 学 习 
方法 。 龙 光宇 等 人 * em 采用 条 件 随机 场 《CRF) 与 基于 命名 实体 识别 
词典 相 结合 的 方法 对 疾病 进行 实体 识别 ， 王 宁 等 人 和 下 用， 0 
通过 使 用 手动 构建 的 规则 来 识别 金融 领域 中 的 公司 名 称 。 基 于 人 1 mp 
词 与 规则 的 方法 太 过 于 依赖 词典 ,规则 等 人 工 预料 库 的 构建 知识 存储 阶段 Neo4j 知 识 存储 
泛 化 能 力 弱 ， 可 移植 性 差 。 基 于 机 器 学 习 的 实体 识别 方法 通常 Neo4 知 识 图 请 
可 分 为 两 类 ， 一 类 是 基于 分 类 的 方法 ， 另 一 类 是 基于 将 实体 识 
别 问题 转化 为 序列 的 整体 标注 问题 ， 即 同时 对 一 段 话 中 多 个 词 图 1 总 体 模型 框架 
进行 标记 ， 最 后 选择 联合 概率 最 大 的 标注 序列 ， 有 较 强 的 扩展 a 
性 和 适应 性 。 例 如 ， 传 统 的 序列 标注 一 般 使 用 “BIO” 标 注 方法 ， ”2 。 语料库 析 奸 
在 实体 识别 过 程 中 加 入 一 个 实体 类 别 标签 “C”， 标 签 形式 为 通过 对 中 文 电子 病历 的 文本 特点 进行 分 析 ， 在 文献 [7.8] 的 
“BIO+C"。 其 中 ,，“B” 表 示 一 个 实体 的 开始 ，“T* 表 示 实 体 的 继 ”基础 上 ， 制 定 给 了 相应 的 标注 规范 其 结构 如 图 2 所 示 。 本 文 构 
续 ，“0* 代 表 不 属于 已 定义 的 任何 一 种 实体 ，“C" 为 实力 类 别 标 ，， 建 语料库 的 数据 来 源 于 海口 市 中 医院 提供 的 2 300 份 中 文 电子 
签 。 在 语料库 的 构建 过 程 中 ， 需 要 统一 规范 。 曲 春燕 等 人 271 ”病历 , 共 包含 15 个 大 小 不 同 的 科室 。 在 构建 语料库 之 前 ， 先 对 
结合 中 文 电子 的 语言 结构 特点 ,结合 原 有 的 电子 病历 标注 规范 ， ”数据 进行 去 敏 处 理 ， 然 后 从 不 同 科室 中 随机 挑选 出 一 定量 的 电 
制定 了 较为 详细 《中 文 电子 病历 命名 实体 和 实体 关系 标注 规 。” 子 病历 进行 数据 标注 。 已 完成 标注 的 中 文 电子 病历 共 500 份 。 
范 》。 为 自然 语言 处 理 在 中 文 电子 病历 领域 的 研究 创建 了 很 好 的 。 ”下 图 统计 分 析 了 公开 数据 集 新 闻 语 料 和 中 文 电子 病历 ， 根 据 显 
基础 ,Li 等 人 和 江 直到 引 用 浙 , 对 比 了 CRF 和 支持 向 量 (support vector ” 示 结 果 发 现 电 子 病历 实体 分 布 密集 程度 远 高 于 新 闻 语 料 。 


machine，SVM) 在 


最 大 的 优点 在 于 无 需 特征 工程 ， 使 用 词 
效果 。 在 医疗 领域 ， 关 于 实体 关系 
Re 率先 定义 了 医疗 实体 关系 。 在 


电子 病历 实体 识别 中 的 性 
明 CRF 有 较 好 的 性 能 。Lample 等 人 和 s 天 aas 提出 了 
LSTM+CRF 模型 ， 并 证 明 该 模型 性 能 超过 了 CRF 模型 性 能 ， 
向 量 就 可 以 达到 很 好 的 
取 研 究 ，Uzunerd 等 人 和 包 吕 


能， 实验 结 


有 应 用 ,Socher 等 人 各 误 ! 未 找到 引用 源 ， 提 出 


域 也 


(recurrent neural network ,RNN ) 处 理 实体 关系 抽取 问题 。 
在 实体 识别 和 实体 关系 抽取 的 基础 上 ， 通 过 采用 率 最 高 的 


区 


到 数据 库 Neo4j 对 


电子 病历 中 的 疾病 ， 病 帝 


四 
个 


自然 语言 处 理 的 其 他 领 
使 用 循环 神经 网 络 


E， 以 及 它们 之 间 的 
关系 ， 以 图 形 化 的 方式 显示 出 来 ， 更 能 增强 医疗 服务 的 便捷 性 
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效果 ， 


知识 提取 模型 设计 


基于 词典 和 规则 的 方法 ， 虽 然 在 实体 识别 


的 实验 有 较 好 


但 是 考虑 到 构建 专业 


司 


a 


泛 化 能 力 弱 。 本 文 参考 之 前 实 
题 进 行 分 析 统 计 ， 然 后 采用 了 一 种 全 新 的 模型 思想 ， 


数据 源 中 挖掘 


主 自 


[= 


病历 中 的 


病历 语 料 为 训练 数据 进行 实验 探究 。 知 识 提 和 
标 知 识 ， 本 文 主要 知识 来 源 是 从 中 文 


和 规则 难度 过 大 ， 且 实验 方法 
体 识 别 模型 思想 ， 并 对 存在 的 问 


以 中 文 


取 是 指 从 不 同 


电子 病历 


取 方 


通过 使 用 实体 识别 方法 和 实体 关系 抽 ] 
信 


取出 来 ， 并 进行 分 析 应 用 


， 知 识 


Sn XIV 合 月 二 
录用 定稿 黄 梦 醒 


EMR 标 注 规范 框架 Google 在 2013 年 提出 的 一 个 开源 NLP 工具 ,特点 是 将 所 有 词 
向 量化 ， 可 以 定量 的 度量 词 与 词 之 间 的 关系 ， 进 一 步 挖掘 词 之 
间 更 深 的 含义 。 该 方法 有 两 种 训练 模型 ，CBOW (continuous 
bag-of-words model ) 和 skip-gram( continuous skip-gram model )。 
CBOW 的 思想 是 将 一 个 词 的 上 下 文 作为 输入 ， 词 本 身 作为 输 
出 , 通过 上 下 文 推测 词 的 含义 ;skip-gram 则 是 将 词 本 身 作为 输 
入 ， 词 的 上 下 文 作为 输出 ， 本 文采 用 后 者 ， 训 练 并 得 到 相应 的 
由] 词 向 量 


峙 有 


状态 的 原因 或 医 


E 做 出 的 诊 


疾病 引起 导致 的 不 适 表现 等 
检查 : 为 发 现 疾病 或 症状 要 求 进行 的 检查 


治疗 : 为 解决 疾病 或 缓解 症状 而 进行 的 治疗 
程序 或 药品 


TeRD (Test Reveals Disease) 

证 实 疾病 

TeAS (Test Administered for Symptom) 
因 病 症 而 检查 
eRS (Test Reveals Symptom) 


检查 发 现 病症 
体 rID(Treatment Improves Disease) 
Se 治疗 改善 疾病 
系 rIS(Treatment Improves Symptom) 
类 治疗 改善 症状 
型 DCS (Disease Conducted Symptom) 
疾病 导致 病症 
T™ SID(Symptom Indicates Disease) 


症状 表明 疾病 
(0D rAS(Treatment is Administered for Symptom) 
治疗 后 症状 没有 提 及 


TrAD (Treatment is Administered for Disease) 


治疗 后 结果 没有 提 及 图 4 Tagging Model 模型 框架 
研究 表明 ，word2vec 将 词语 从 文本 转换 为 词 向 量 ， 虽然 保 
图 2 EMR 标注 规范 留 了 句子 的 语义 特征 ， 但 是 并 不 能 完整 的 保存 句子 本 身 的 一 些 


句法 结构 上 的 特征 。 为 了 更 好 的 保留 语义 和 结构 特征 ， 本 文 尝 
试 在 文本 预 处 理 阶段 加 入 一 个 BiLSTM 预测 下 一 时 刻 的 字符 ， 
进一步 表示 文本 的 语义 和 句法 结构 。 将 Word2Vec 与 BiLSTM 
的 隐藏 层 向 量 联合 作为 文本 特征 提取 模型 的 输入 ， 将 其 命名 为 
Tagging Model， 其 结构 如 图 4 所 示 。 
3.1.2 文本 特征 提取 模型 BiLSTM 

在 众多 实体 识别 方法 模型 中 ， 由 于 基于 机 器 学 习 方法 有 较 
强 的 扩展 性 和 适用 性 ， 得 以 广泛 使 用 。 但 还 是 存在 诸多 问题 ， 
本 文 针对 其 中 的 一 些 问 题 , 并 作出 改进 , 加 入 到 新 的 模型 当中 。 
在 传统 神经 网 络 中 ， 存 在 问题 有 : a) 不 同 层次 之 见 的 神经 


图 3 知识 提取 框架 元 全 连接 ， 相 同 层次 之 间 无 连接 jb) 不 能 捕捉 前 后 词语 标注 后 
3.1 实体 识别 模型 的 结果 。 采 用 隐藏 层 之 间 有 连接 的 RNN 解决 以 上 问题 ， 但 在 
实体 识别 模型 分 为 三 层 ,第 一 层 是 词 嵌 入 模型 , 作用 是 将 文 ”实际 应 用 中 ， 由 于 梯度 弥散 问题 ， 通 常 假设 当前 状态 只 与 之 前 


本 转换 为 数 词 向 量 , 将 词 向 量 输入 到 第 二 层 ; 第 二 层 是 BiLSTM 邻近 的 节点 状态 有 关 ， 降 低 模 型 的 复杂 程度 。 在 RNN 中 存在 
模型 ， 作 用 是 以 词 向 量 为 输入 ， 自 动 提 取 文 本 特征 ， 将 文本 特 。 长 期 依赖 问题 ， 是 指 经 过 许多 阶段 传播 后 的 梯度 倾向 于 消失 和 
征 作为 CRF 线性 层 的 输入 ; 第 三 层 是 CRF 模型 ， 作 用 是 对 爆炸。 为 解决 RNN 中 的 长 期 依赖 问题 , 最 有 效 的 方法 是 LSTM 
BiLSTM 提取 出 来 的 文本 特征 进行 序列 标注 ， 并 从 句子 的 整体 (long short term memory) 结构 ， 由 Hochreiter 等 人 3 提出， 


层面 考虑 ， 达 到 全 局 最 优 序列 。 后 被 Alex Graves 改进 ， 得 到 了 广泛 的 使 用 。 
3.1.1 词 误 入 模型 为 了 能 够 有 效 地 利用 上 下 文 的 信息 ， 将 标准 的 RNN 单 向 


词 嵌 入 《word embedding，WE) 一 项 非常 重要 且 应 用 非常 ”时 序 处 理 方式 拓展 为 双向 LSTM (BiLSTM) 网 络 ， 模 型 内 包 
广泛 的 技术 ， 可 以 将 文本 和 词语 转换 为 计算 机 可 以 识别 的 数值 含 两 个 方向 的 网 络 结构 :方向 1 是 从 左 到 右 (h, 思 ,及 ,及 ) (顺序 ) 
句 量 。 主 要 分 为 两 类 : 一 类 是 词 袋 模型 (bag of words ,BOW ) ， 
一 类 是 分 布 式 表示 (distributed representation )。BOW 的 代表 是 
one hot 编码 , 虽然 起 源 很 早 , 但 由 于 不 能 很 好 的 保存 语义 信息 ， 量 拼接 的 方式 将 其 组 合 , 通过 连接 的 线性 层 将 其 映射 为 k 维 , k 
不 考虑 使 用 。 本 文采 用 的 是 分 布 式 表示 方法 中 的 word2vec， 是 是 训练 集 内 的 标签 种 类 数 ， 从 而 得 到 提取 的 句子 特征 ， 记 作 


传播 ， 方向 2 是 从 右 向 左 (, 轴 ,有 ,及 ) (逆序 ) 传播 ， 采 用 向 


廿 口 
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关系 抽取 作为 一 个 独立 的 多 分 类 问题 ， 或 将 实体 关系 与 实体 识 
别 串 联 组 合 。 存 在 的 问题 是 忽略 了 两 个 任务 之 间 的 关联 ， 例 如 
当 实 体 识 别 错误 时 ， 会 进一步 影响 下 一 个 实体 关系 抽取 错误 ， 
从 而 扩大 整体 的 错误 率 。 

传统 的 实体 关系 抽取 方法 ， 首 先是 先进 行 实体 识别 ， 然 后 
对 识别 的 实体 进行 分 类 完成 关系 的 抽取 ， 这 种 方法 叫做 流水 线 
方法 。 虽 然 模型 的 灵活 性 较 高 ， 但 不 足 是 实验 之 前 需要 具有 专 
业 领 域 知识 的 人 对 数据 进行 数据 标注 处 理 ， 会 消耗 大 量 时 间 和 
人 力 。 而 且 由 于 训练 集 被 大 量 标注 ， 包 含 了 一 定 的 先 验 知识 ， 
会 影响 模型 的 识别 能 力 。 


本 文 在 实体 识别 模型 的 基础 上 对 实体 关系 抽取 进行 研究 ， 


(Cj,C2;C3,Cy) 。 其 结构 如 图 5 所 示 。 


图 5 BiLSTM 模型 框架 将 两 者 尝试 作为 联合 任务 ， 提 出 了 新 的 标注 方法 ， 将 文本 的 位 
3.1.3 序列 标注 模型 CRF 标签 使 用 one hot 编码 , 作为 辅助 信息 输入 到 模型 中 并 做 出 合 


虽然 LSTM 可 以 完成 序列 标注 任务 ,但 存在 标注 偏 置 问题 。 ” 适 的 重 构 来 更 加 符合 任务 的 完成 。 结 合 实体 识别 设计 一 个 联合 

使 用 CRF 模型 完成 序列 标注 任务 ， 可 以 获取 全 局 最 优 输出 序 ”模型 Entity Relation Model (ERM)， 采 用 “BIEOS” 标 注 。 将 原 
本 列 ， 效 果 优 于 单个 LSTM。 使 用 CRF 链 式 结构 ， 如 图 6 所 示 。 ” 标注 方法 添加 一 组 预定 关系 ， 转 换 为 三 元 组 ， 如 (实体 信息 ， 
之 ”将 BiLSTM 提取 的 文本 特征 P(Y|C) 进行 序列 标注 , 标注 方法 ”实体 关系 ,实体 在 关系 中 的 位 置 ，B-TeRD-1、E-TeRD-2。 本 文 
采用 “BIEOS”， 单 个 字母 分 别 代表 实体 开始 、 中 间 、 结 束 ， 无 ”只 考虑 一 个 实体 只 属于 一 个 三 元 组 的 情况 ,ERM 模型 与 实体 模 
关 实 体 ， 单 个 字符 实体 ， 如 图 3.2 中 标注 所 示 。 令 ”型 类 似 , 将 实体 识别 模型 中 的 CRF 层 更 换 为 Softmax 层 。 模 型 
C=(G,C,G3;CG4) 和 了 =(yi, yy, 六 ;74) 分 别 作 为 CRF 链 式 结 结构 如 图 7 所 示 。 


Ea 


构 的 观察 序列 和 状态 序列 , 即 输入 和 输出 。P(Y|C) 是 在 C 序 (A 


列 的 条 件 下 YY 序列 的 条 件 概率 分 布 ， 计 算 过 程 如 下 : (BiLSTM 模 型 ”| 实 
P(YIC)= (E57 OOD) 2 cnc (1) 大 


Z(O] exp 
文本 特征 + 位 置 标签 


Z(C)= Ze| Zoo (yuC,i 二 5 (rci (2) 


é SoftMax 


图 7 ERM 模型 框架 

在 实体 关系 抽取 模型 中 ， 共 有 四 层 ， 第 一 层 词 甬 入 模型 ， 
将 文本 内 容 转化 为 词 向 量 ;第 二 层 BiLSTM 模型 ， 自 动 提取 文 
本 特征 ; 第 三 层 是 附加 位 置 标签 的 文本 特征 ， 通 过 使 用 one hot 
编码 将 向 量化 的 文本 特征 与 实体 位 置 标签 联合 ， 构 成 一 个 三 元 
组 格式 ， 第 四 层 是 采用 处 理 多 分 类 问题 的 Softmax 函数 层 ， 将 
相应 函数 的 权重 。y 表示 最 有 可 能 的 标注 结果 序列 ， 即 最 大 条 ”第 三 层 的 关系 分 类 转换 为 最 大 概率 问题 。ERM 模型 如 图 8 所 
件 概率 。 示 。 


y =argmaxP(Y |C) (3) 


其 中 : 概率 转移 函数 f(yi1,yi,C,i) 表 示 序 列 C 在 y, 到 yy, 之 


间 的 转移 概率 。 状 态 函数 $j (yi,C,i) 表示 序列 X 在 第 i 个 位 


的 标记 为 多 的 概率 ，Z(C) 是 归 一 化 项 。 和 4 和) 分 别 对 应 


图 6 CRF 链 式 结构 
3.2 实体 关系 抽取 模型 
电子 病历 命名 实体 关系 抽取 任务 的 主要 目的 是 研究 识别 两 
个 医疗 实体 间 的 预定 义 的 关系 ， 例 如 疾病 、 症 状 、 检 查 和 治疗 
这 几 类 实体 间 的 关系 。 当 前 国内 外 研究 中 普遍 使 用 的 是 将 实体 图 8 ERM 模型 框架 
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3.3 ”Neo4j 知识 存储 模型 图 9 所 示 。 


本 文采 用 自 底 向 上 构建 方式 构造 知识 图 谱 。 在 众多 数据 库 从 图 9 可 以 发 现 ， 相 对 于 单独 使 用 BiLSTM 对 实体 识别 ， 
系统 中 ，Neo4j 具有 高 性 能 ， 设 计 灵 活性 ， 开 发 敏捷 性 等 优势 ， BiLSTM 与 CRF 的 联合 对 识别 结果 定 的 提高 。 而 使 用 词 向 
用 户 可 以 使 用 Cypher 语言 来 操作 数据 。 通 过 实体 识别 模型 和 实 。 量 作 为 特征 的 CRF 模型 效果 低 于 手工 提取 特征 的 CRF 模型 。 
体 关 系 抽取 模型 ， 将 输出 结果 使 用 Python 转换 为 SPO 三 元 组 。” B-tagging Model 是 在 训练 过 程 中 使 用 Bootstrapping 方法 扩展 数 

(Subject, Predicate, Object) ,如 表 1 所 示 , 整 个 知识 图 谱 可 以 看 据 集 ， 提 升 了 模型 的 识别 效果 。 同 时 观察 发 现 准 确 率 和 召回 率 


作 三 元 组 集合 。 都 有 提高 ， 说 明 模型 的 泛 化 能 力 得 到 进一步 的 提升 ， 增 强 模型 
表 1 SPO 三 元 组 的 适用 性 。 图 10(a)(b) 分 别 表 示 实 体 识 别 模型 B-Tagging Model 
Subject Predicate Object 对 图 2 中 4 种 实体 类 型 的 准确 率 和 召回 率 评估 ， 结 果 表 明 实 体 
乙 型 肝炎 症状 腹痛 类 型 检查 与 治疗 的 准确 率 都 很 高 ， 原 因 可 能 是 因为 这 两 类 实体 
乙 型 肝炎 症状 皮肤 巩膜 黄 染 有 特殊 的 结构 和 语法 特点 。 对 于 疾病 和 症状 可 能 是 因为 在 电子 
拉 米 夫 定 治疗 乙 型 肝炎 病历 中 的 位 置 都 很 相似 导致 分 类 失误 。 
通过 对 150 多 种 疾病 相关 的 三 元 组 分 析 统计 ， 发 现 某 一 特 
定 症状 可 以 由 多 种 疾病 引起 ， 因 此 在 将 病症 实体 导入 到 Neodj 一 一 准确 率 % 一 和 一 召回 率 % -二 “人 
数据 库 时 ， 我 们 需要 对 每 一 个 病症 节点 设置 唯一 性 约束 。 在 衡 190 
量 单个 病症 对 于 疾病 的 影响 因子 上 ， Rotmensch 等 全 7 
到 提出 了 一 种 基于 朴素 贝 叶 斯 和 知识 图 谱 的 病症 权重 因子 ED 
IMPT 计算 方法 ， 即 30 
IMPT =1og(P(* =Iby, =1))-log (P(x =1b, =0)) (4) 1 
Ee ¢ 收 
其 中 :IMPT 表示 单个 病症 对 疾病 的 权重 因子 ,x 表示 id =i 的 Se 
人 ce 
pe 
病症 实体 ，y; 表示 id = j 的 疾病 实体 , 值 “1”“0" 表 示 疾 病 和 病 v 
症 的 有 无 .IMPT 值 越 大 ,就 表示 知识 图 谱 中 连接 对 应 疾病 实体 图 9 五 种 实体 识别 方法 实验 结果 
与 病症 的 权重 越 大 。 
曙 准确 率 (%) 加 召回 率 (%) 
4 ”实验 分 析 : 
4.1 实体 识别 实验 结果 分 析 Sy S| 
在 训练 模型 过 程 中 ,结合 Bootstrapping 方法 调整 训练 过 程 ， a ® 
进一步 扩展 数据 集 。 训 练 过 程 如 下 所 示 : 时 
al 根据 已 有 标注 数据 ， 训 练 好 初始 的 Tagging Model; 
b) 获 取 未 标注 语 料 ,输入 到 训练 好 的 Tagging Model, 得 到 一 
个 分 类 标签 以 及 概率 ， 若 概率 大 于 阔 值 ， 则 将 词语 与 标注 结果 
人 症状 疾病 检查 治疗 症状 疾病 检查 治疗 
0O) 当 可 靠 集 数量 N=500 时 ， 将 现 有 的 可 靠 集 与 原 标注 数据 
集合 并 为 训练 集 ， 重 新 训练 Tagging Model， 并 清空 可 靠 集 ， 重 (a) 准确 率 测 试 (b) 召 回 率 测试 
复 步骤 b)。 图 10 B-Tagging Model 对 不 同 实体 类 型 识别 结果 
实验 过 程 中 , 将 海口 市 提供 的 2300 份 电子 病历 作为 实验 语 ”4.2 实体 关系 抽取 实验 结果 分 析 
料 。 采 用 交叉 验证 方法 ,已 标注 的 500 份 语 料 中 , 随机 抽取 100 对 于 实体 关系 抽取 模型 的 实验 ， 与 上 一 节 实体 识别 模型 相 
份 作 为 训练 语 料 ，400 份 作为 测试 语 料 。 通 过 对 比 不 同 参数 的 。” 似 ， 实 验 参 数 设置 相同 。 实 验 结果 如 图 11 所 示 。 


模型 结构 ， 设 置 词 嵌入 向 量 维 数 采 用 256 维 ， 隐 藏 层 数 4〈 每 图 11 可 以 发 现 ， 相 比 于 传统 的 CRF 模型 ，ERM 模型 虽 
个 方向 两 层 )， 优 化 算法 使 用 自 适应 时 刻 估计 方法 (adaptive ” 然 准 确 率 有 所 提高 , 但 是 召回 率 和 下 值 都 低 于 CRF 模型 。 相 比 
moment estimation, Adam )， 损 失 函 数 使 用 交叉 人 损 失 函 数 ， 学 于 ERM-T (添加 位 置 标签 后 ), 前 两 种 方法 都 有 所 不 足 , ERM-T 
习 率 0.001，dropout 0.3。 实 体 识别 针对 图 2 中 的 4 种 实体 类 型 ” 的 是 3 个 评估 标准 都 高 于 CRF 和 ERM。 图 12 中 ab 图 是 实体 
进行 实验 ， 准 确 率 、 召 回 率 和 五 值 作 为 评估 标准 。 实 验 结果 如 ”关系 抽取 模型 ERM-T 对 于 图 2 中 9 中 实体 关系 识别 结果 的 准 


201810.00026v1 


chinaXiv 


录用 定稿 
确 率 和 召回 率 评 估 。 结 果 表 明 TID 和 DCS 效果 最 好 ，TrAD 


和 TrAS 最 差 ， 究 其 原因 可 能 是 因为 相同 的 位 置 标签 内 ， 可 以 
较 好 的 识别 出 实体 关系 ， 若 间隔 较 大 ， 则 效果 明显 降低 。 


一 上 一 准确 率 (%) 一 可 一 如 回 率 (%) 一 上 一 F 值 


60 


0 一 一 
40 


10 
0 
CRF ERM ERM-T 
图 11 三 种 实体 关系 抽取 模型 实验 结果 
80 
全 60.21 
60 51.75 加 
50 到 | 
40 
30 
20 
10 
0 
TeRDTeAS TeRS TrID TrAD TrlS TrAS DCS 
国 准 确 率 (%) 
(a); 准 确 率 测试 
70 62.365.38 
60 53.26 
50 ET 41.87 
40 28.23 一 
30 20.09 18.11 
20 加 9.35 
10 加 
自 图 
Q bE ae io qQ 
< x 2 A < 心 AS < S 
加 召回 率 (%) 
(b) 召 回 率 测试 


图 12 ERM-T 对 实体 关系 抽取 结果 
4.3 知识 图 谱 可 视 化 结果 分 析 

通过 将 三 元 组 结构 化 数据 ， 使 用 Java 将 数据 传送 到 Neo4j 
本 地 数据 库 中 ， 并 构建 好 知识 图 谱 。 如 图 13 所 示 。 
在 Neo4j 图 存储 数据 库 管 理 系统 中 ， 患 者 ， 医 生 或 者 用 户 
可 以 通过 输入 症状 或 疾病 ， 通 过 分 析 ， 与 构建 好 的 医疗 知识 图 
谱 进 行 匹 配 ,根据 病症 实体 或 疾病 实体 与 药物 实体 之 间 的 关系 ， 
E 荐 相关 疾病 知识 和 药物 ， 如 何 预 防 疾 病 和 饮食 习惯 等 相关 知 
识 给 用 户 。 通 过 构建 医疗 知识 图 谱系 统 ， 不 仅 患 者 可 以 查询 自 
己 可 能 患 有 的 疾病 ， 还 可 以 帮助 医务 人 员 碍 阅 相关 疾病 信息 ， 
达到 辅助 医疗 的 作用 。 
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(b) 疾 病 “ 感 冒 ”与 各 种 症状 的 联系 
图 13 知识 图 谱 可 视 化 结果 
图 13 中 的 (a) 是 在 Neo4j 数据 库 中 使 用 match 语句 搜索 病症 
“胸闷 不 适 ” 后 的 结果 ，(b) 是 搜索 疾病 “感冒 "后 的 结果 。 蓝 色 节 
点 表示 疾病 实体 ， 红 色 节 点 表示 病症 实体 ， 两 者 之 间 的 联系 是 
IMPT 权重 因子 。 通 过 可 视 化 操作 ， 我 们 能 够 很 清晰 的 看 到 单 
一 疾病 与 多 种 病症 以 及 单一 病症 与 多 种 疾病 之 间 的 联系 。 


5 ”结束 语 


由 于 中 文 电子 病历 的 独特 文本 特点 和 缺少 大 规模 语料库 ， 
且 没 有 广泛 的 统一 标注 规范 ， 致 使 研究 问题 重重 。 本 文 基于 在 
当前 研究 领域 广泛 使 用 的 各 种 模型 方法 ， 基 于 词典 ， 基 于 规则 
和 基于 机 器 学 习 的 命名 实体 识别 方法 ， 结 合 词 髋 入 技术 和 神经 
网 络 BiLSTM 以 及 CRF 模型 ,构造 一 个 新 的 模型 用 于 命名 实体 
识别 ， 研 究 证 明 该 模型 有 良好 的 表现 。 在 实体 识别 基础 上 ， 分 
析 传 统 实体 关系 抽取 方法 存在 的 分 离 问 题 ， 联 合 实体 识别 ， 构 
建新 的 模型 方法 ， 提 升 了 识别 效果 。 在 训练 过 程 中 ， 还 使 用 
Bootstrapping 方法 ， 扩 展 训练 语 料 ， 增 量 模型 的 有 效 性 。 
虽然 模型 方法 取得 良好 效果 ， 但 是 模型 方法 还 有 很 多 不 足 
之 处 ， 有 待 进一步 完善 。 在 实体 关系 抽取 模型 中 ， 不 同类 别 实 
体 间 隔 较 远 ，BiLSTM 不 能 有 效 的 发 现 两 者 之 间 的 关系 ， 可 以 
尝试 使 用 注意 力 机 制 或 者 根据 文本 内 容 建 立 分 布 度 加 权 帮 助 模 
型 学 习 不 同类 型 实体 间 的 关系 。 还 可 以 尝试 利用 多 分 类 思想 以 
及 句法 树 的 思想 改进 模型 ， 发 现实 体 之 间 的 关联 。 

本 文 实现 的 知识 图 谱 功能 尚 有 不 足 ， 有 竺 进一步 拓展 。 可 
以 尝试 将 医学 知识 扩展 到 语料库 ， 识 别 新 的 实体 类 型 ， 构 建新 
的 实体 关系 ， 更 加 完善 医疗 体系 知识 图 谱 的 应 用 性 。 
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